1. Introducción

En el presente proyecto se pretende cumplir con los objetivos establecidos para el trabajo final de la asignatura “Business Perfomance Analysis” del máster de Big Data & Analytics de la EAE Business school.

El tema elegido para completar este trabajo es el análisis de una misma noticia en cuatro periódicos diferentes; El Mundo, El País, El Periódico y Ok Diario. La finalidad es si se observa sesgo político en la notica, analizando para ello las palabras más frecuentes y los bigramas más frecuentes de dichas noticias.

A continuación se indican los enlaces de la noticia elegida: El juicio de Quim Torra.

El Mundo
El País
El Periódico
Ok Diario

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

2. Análisis de palabras más frecuentes

A la hora de explorar un texto siempre es interesante recurrir a mostrar las palabras más frecuentes. Esta exploración nos da una idea de los conceptos más recurrentes por el/la autor/a del texto en cuestión.

Sin previa información, podríamos concluir que las palabras más recurrentes van a ser los pronombres, conjunciones, determinantes y demás recursos gramaticales. Dado que estas palabras realmente no aportan información a nuestro estudio, se ha empleado un filtro de las palabras más usadas en español, empleando para ello la libreria stopwords que no es más que una colección de las palabras más recurrentes en el idioma español.

Una vez se ha hecho esto, se ha vuelto a filtrar por aquellas palabras que se repiten dos veces o más. Normalmente el filtro en text mining suele ser superior, pero dado que nuestro objeto de estudio se trata de noticias cortas (menos de 500 palabras), se ha fijado que una palabra es recurrente cuando aparece dos o más veces.

En el siguiente gráfico se muestra en un diagrama de barras las palabras más empleadas, agrupadas por periódico:

Como podemos observar, muchas de las palabras que más se repiten coinciden en los cuatro diarios, siendo las más destacadas “torra”, “orden”, “electoral”, “generalitat” y “presidente”. Por otra parte, es interesante que en el periódico “El País” nombren al abogado del Sr. Torra, el Sr. Boye mientras que en los demás diarios no lo han nombrado.

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

3. Bigramas más repetidos

Una vez vistas las palabras más recurrentes, es también interesante realizar un análisis de bigramas. Nuevamente se han filtrado las palabras de las noticias quitando aquellos recursos gramaticales repetitivos y aquellos bigramas que aparecen una sola vez. Como los textos no son muy largos, son pocos los bigramas que cumplen estas condiciones, por lo que se ha decidido mostrar todos:

Nuevamente vemos muy poca diferencia entre los diferentes periódicos, siendo los más frecuentes, como no cabia esperar, “Quim Torra”,“Lazos Amarillos”,“Junta electoral” y “electoral central” que tienen que ver directamente con el asunto tratado en las noticias.

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

4. Nubes de palabras

Una forma muy visual de ver la frecuencia con la que aparecen todas las palabras de un texto es una nube de palabras. Para ello se ha empleado la librería wordcloud2.

Gráficos de nubes de palabras

El Mundo

El País

El Periódico

Ok Diario

Como podemos observar, tanto “El Mundo” como “El País” tienen mucha más variedad de palabras que los diarios "El “Periódico” y “Ok Diario”. De hecho, revisando un poco más, podemos observar el número de palabras relevantes de cada noticia:

  • El Mundo: 330 palabras relevantes.
  • El País: 327 palabras relevantes.
  • El Periódico: 239 palabras relevantes.
  • Ok diario: 120 palabras relevantes.

Con esta información podemos concluir que tienen mayor variedad de palabras y que además tienen una longitud de noticia mayor.

En cuanto al sesgo, hay particularidades relevantes:

  • Ok Diario tiene unas cuantas palabras interesantes con cierta recurrencia. Las más interesantes son “franquista” y “vox”, que podría indicar un cierto sesgo hacia el lado más duro de la derecha.

  • El Periódico es de los pocos diarios que ha empleado más palabras en catalán.

  • El País también emplea “franquista” varias veces, aunque con menos recurrencia relativa que Ok Diario.

  • El Mundo usa “vox” aunque también con menos recurrencia.

Por lo tanto, seguimos sin ver un sesgo político claro, aunque hay ligeros detalles que nos indican que Ok Diario está más sesgado a la derecha (qué sorpresa).

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

5. Palabras únicas por periódico

Otro punto de perspectiva interesante es revisar qué palabras aparecen en algunos periódicos que no aparecen en los demás. En caso de aparecer palabras relacionadas con inclinaciones políticas, podríamos tener un indicador de sesgo político.

A continuación se muestran aquellas palabras más repetidas

Tablas palabras únicas

El Mundo

El Mundo El País El Periódico Ok Diario Palabras
2 0 0 0 20
4 0 0 0 acto
2 0 0 0 añadido
2 0 0 0 asegurado
3 0 0 0 catalanes
3 0 0 0 ciudadanos
2 0 0 0 competencia
2 0 0 0 comprobar
2 0 0 0 considerar
2 0 0 0 decidió
3 0 0 0 derechos
2 0 0 0 desobedecí
2 0 0 0 director
2 0 0 0 esquius
2 0 0 0 esteladas
2 0 0 0 euros
2 0 0 0 informe
2 0 0 0 inhabilitación
2 0 0 0 instó
2 0 0 0 multa
3 0 0 0 órdenes
2 0 0 0 organismo
3 0 0 0 órgano
3 0 0 0 pancartas
2 0 0 0 partido
2 0 0 0 podía
2 0 0 0 popular
2 0 0 0 prevaricar
2 0 0 0 prisión
3 0 0 0 quitar
2 0 0 0 recordar
2 0 0 0 sentido
2 0 0 0 simbología
4 0 0 0 símbolos
2 0 0 0 testigos
2 0 0 0 usó

El País

El Mundo El País El Periódico Ok Diario Palabras
0 2 0 0 acusó
0 5 0 0 boye
0 2 0 0 campaña
0 2 0 0 cargo
0 2 0 0 contestar
0 2 0 0 cumplió
0 2 0 0 cumplir
0 2 0 0 derecho
0 2 0 0 desafío
0 2 0 0 discurso
0 2 0 0 éxito
0 2 0 0 expresident
0 2 0 0 independentistas
0 2 0 0 intervención
0 2 0 0 jurídica
0 2 0 0 negó
0 2 0 0 neutrales
0 2 0 0 panorama
0 2 0 0 papel
0 2 0 0 pensaba
0 2 0 0 personas
0 2 0 0 presos
0 2 0 0 puigdemont
0 2 0 0 renunció
0 3 0 0 sala
0 2 0 0 sentencia
0 2 0 0 trató
0 3 0 0 vistas
0 2 0 0 voluntad

El Periódico

El Mundo El País El Periódico Ok Diario Palabras
0 0 2 0 actitud
0 0 2 0 afirmado
0 0 2 0 amarillo
0 0 3 0 bañeras
0 0 2 0 caso
0 0 2 0 catalán
0 0 3 0 catalunya
0 0 2 0 comisario
0 0 3 0 condena
0 0 2 0 estelada
0 0 2 0 falta
0 0 2 0 hechos
0 0 3 0 lazo
0 0 3 0 mañana
0 0 2 0 ocasiones
0 0 2 0 palau
0 0 2 0 recordado
0 0 2 0 sociedad

Ok Diario

El Mundo El País El Periódico Ok Diario Palabras
0 0 0 2 forma
0 0 0 2 particular
0 0 0 2 preguntas
0 0 0 2 presunto
0 0 0 2 respuesta

¿Qué conclusiones podemos sacar de estas tablas?

  • El diario El Mundo no tiene palabras únicas relevantes que nos indiquen algún indicio de sesgo. Al tener un gran número de palabras, vuelve a constatar la diversidad de palabras a lo largo de toda la noticia.

  • El País tampoco tiene nada destacable. Son los únicos en nombrar a “Boye”, el abogado de Quim Torra y Carles Puigdemont y de ahí que aparezcan otras palabras relacionadas con el segundo (“expresident”,“puigdemont”). Dato curioso, son los únicos en usar la palabra “independentistas”.

  • El Periódico al igual que El País usó a “Boye”, El periódico emplea a “Bañeras” para nombrar a Francisco Bañeras, fiscal superior de Cataluña Además nombran las esteladas y usan la palabra “catalunya”, que como ya vimos han usado las palabras más repetidas.

  • Ok Diario nada que decir. Pocas palabras y sin relevancia. Nos confirma que la diversidad de palabras de esta noticia es escasa.

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

6. Conclusiones

Mi hipótesis inicial era que sí había sesgo político, pero tras los datos expuestos creo que no podemos ni confirmarla, ni desmentirla.

Los posibles motivos de que no se vea un sesgo tan claro puede deberse a que se trata de una noticia informativa y no de un editorial o artículo de opinión, y también que los textos seleccionados son cortos. En textos más largos es más factible ver una temática o características más fácil. O que simplemente no haya sesgo político (deja que lo dude).

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com

 

7. Anexos

Como parte del contenido del presente trabajo se ha solicitado que seleccionemos dos páginas web de expresiones regulares y otras dos de RMarkdown. El objetivo es comentar dichas páginas de cual es mejor para qué fin buscado, pros y contras de cada página, etc.

7.1. Expresiones regulares

Las expresiones regulares son una herramienta muy empleada a la hora de realizar limpieza de datos. Nos permiten seleccionar caracteres de muchas formas para poder adaptarlas a las necesidades de nuestros proyectos. Su sintaxis es muy específica y es común para todos los lenguajes de programación (o muy similar). En el presente trabajo se usó esta herramienta para poder formatear las noticias seleccionadas.

Páginas “Regex”

Cheatsheet de expresiones regulares

Cheat Sheet

Sin duda alguna, es el documento por antonomasía de la gente olvidadiza (yo mismo). Se trata un PDF descargable que permite explorar todas las opciones de uso que tienen las expresiones regulares, de una forma muy visual y siendo breve y conciso.

Es un gran documento que tener al lado para hacer tus limpiezas de datos.

Regular-expressions.info

Regular-expressions.info

Aunque su apariencia es horriblemente anticuada, el contenido de la misma es espectacular. Muchísima información bien estructurada. Sin duda alguna está más orientada a students pero creo que también sería una buena fuente de informacion para gente más experta.

7.2. RMarkdown

Los RMarkdown nos permiten pasar del entorno de trabajo a un entorno de visualización para difundirlo. Tiene miles de herramientas que pueden conseguir cualquier nivel de personalización.

Páginas RMarkdown

RMarkdown Studio

RMarkdown.restudio

Siempre hay que tener apreciación a aquella información que viene desde la mismísima fuente. En nuestro caso, esta página explica paso a paso y bien masticado todos los pasos a hacer para empezar a trabajar con RMarkdown. Muy útil al principio, después pierde peso.

Regular-expressions.info

RMarkdown for Data Science

Esta página web es MUY recomendable. A parte de todo el contenido que tiene y la estructuración del mismo, esta muy orientado a estudiantes. No se profundiza en gran medida en los temas pero se presenta en un formato sencillo y asequible indeferentemente del nivel de conociemiento de programación que tenga el lector.

 

A work by Antonio Álvarez Bao

anton.lpgc.alvarez@gmail.com